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ZU5AMMENFASSUNG 

Spracherkennungssystem, Trainingseinrichtung und Verfahren zum Berechnen von 
Iterationswerten fiir freie Parameter ernes Maximum-Entropie-Sprachmodells 

Die Erfindung betrifFt ein Spracherkennungssystem und ein Verfahren zum Berechnen 
von Iterationswerten fiir freie Parameter X<X des Maximum-Entropie-Sprachmodells. Es ist 
im Stand der Technik bekannt, diese freien Parameter Xa. z.B. mit Hilfe eines GIS- 
Traihingsalgorithmus zyklisch iterativ zu approximieren. Zyklisch bedeutet in diesem Fall, 
dass bei jedem Iterationsschritt n eine zyklisch vorbestimmte Merkmalsgruppe Ai(n) des 
Sprachmodells zur Berechnung des n+1 Iterationswertes fiir die freien Parameter ausge- 
wertet wird. Eine derartig starr zyklisch zugeordnete Merkmalsgruppe Ai(n) ist jedoch 
nicht immer am besten geeignet, den GIS-Trainingsalgorithmus in einer aktuellen 
Situation am schnellsten und effektivsten konvergieren zu lassen. Es wird deshalb 
erfindungsgemafi ein Verfahren zur Auswahl der in dieser Hinsicht am besten geeigneten 
Merkmalsgruppe vorgeschlagen, wobei der Grad der Anpassung von Iterationsrandwerten 
OT (n) 

a an jeweils zugehorige gewiinschte Randwerte ma fiir alle Merkmale der jeweiligen 
Merkmalsgruppe als Kriterium fur die Auswahl der Merkmalsgruppe dient. 

Fig. 1 
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BESCHREIBUNG 

Spracherkennungssystem, Trainingseinrichtung und Verfahren zum Berechnen von 
Iterationswerten fur freie Parameter eines Maximum-Entropie-Sprachmodells 

Die Erfindung betrifft ein Verfahren zum Berechnen von Iterationswerten fur freie Para- 
meter X des Maximum-Entropie (ME)-Sprachmodells gernafi dem OberbegrifFdes Patent- 
anspruchs 1. 

Die Erfindung betrifft weiterhin ein Spracherkennungssystem und eine Trainingsein- 
richtung, in welchen ein derartiges Verfahren reaJisiert ist. 

Im Stand der Technik ist es bekannt, dass in einem (ME)-Sprachmodell sog. freie 
Parameter A. definiert bzw. trainiert werden miissen. Ein bekannter Algorithmus zum 
Trainieren dieser freien Parameter A. ist der sog. Generalized Iterative Scaling (GIS)- 
Trainingsalgorithmus. Von diesem'GIS-Trainingsalgorithmus sind mehrere Varianten 
bekannt; die vorliegende Erfindung betrifft allerdings nur eine sog. zyklische Variante, 
wonach freie Parameter A, iterativ wie folgt berechnet werden: 



(1) 



Bei dieser zyklischen Variante ist jedem Iterationswert n eine Merkmalsgruppe 

Ai mit i = n(mod m) von insgesamt m Merkmalsgruppen in dem Sprachrriodell zugeordnet 

und die Iterationswerte A ' a werden jeweils fur alle Merkmale a aus der aktuell zugeord- 
neten Merkmalsgruppe Ai berechnet, bevor der Iterationsparameter n um 1 erhoht wird. 
Diese zyklische Variante des GIS-Trainingsalgorithmus ist z.B. offenbart in J.N. Darroch 
and D. Ratcliff "Generalized iterative scaling for log linear models", Annals Math. Stat., 
43(5): 1470- 1480, 1972. 
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In der Formel (1) bezeichnet: 

den Iterationsparameter; 

die Anzahl der insgesaint in dem Sprachmodell vordefinierten 
Merkmalsgruppen; 

die dem Iterationsparameter n aktuell zugeordnete 
Merkmalsgruppe; 

ein bestimmtes Merkmal aus der Merkmalsgruppe An (mod m); 
alle Merkmale aus der Merkmalsgruppe 
An (mod m); 

den n'ten Iterationswert fiir den freien Parameter tax; 
. Konvergenzschrittweiten; 

gewiinschte Randwerte in dem Sprachmodell; und 

n'te Iterationsrandwerte fur die 
gewiinschten Randwerte ma bzw. m|3. 

Einige der soeben vorgestellten Parameter in der Formel (1) werden nachfolgend naher 
erlautert: 

Der zyklischen Variante des GIS-Trainingsalgorithmus gemafi Formel (1) liegt der 
Gedanke zugrunde, dass alle in dem ME-Sprachmodell vorbestimmten Merkmale 
einzelnen Merkmalsgruppen Ai zugeordnet sind, von denen.insgesamt m in dem Sprach- 
modell definiert sind. Ein Beispiel fur ein Sprachmodell mit insgesamt m = 3 vordefinier- 
ten Merkmalsgruppen Ai mit i = 1 ... 3 ist in Fig. 5 anschaulich dargestellt. Merkmale 
konnen dabei allgemein einzelne Worte, Wortfolgen, Wortklassen, Folgen von Wort- 
klassen oder komplexere Muster bezeichnen. So umfasst in Fig. 5 die Merkmalsgruppe AI 
Worte, z.B. das Wort "House" und Wortfolgen, z.B. "The Green". Demgegenuber um- 
fasst die Merkmalsgruppe A3 einzelne Wortklassen, z.B. "Adjektive" oder "Substantive" 
und Folgen von Wortklassen, z.B. "Adverb - Verb". 



n 
m 

An (mod m) 
a 

3 

ta, tfi 
ma, m|3 

(n) O) 
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Bei der bekannten zyklischen Berechnung der freien Parameter Xa. gemaE Formel (1) ist 
jedem Iterationsparameter n eine Merkmalsgruppe Ai = An (mod m), d.h. gemafi modulo 
m fest zugeordnet. Diese starre zyklische Zuordnung hat folgenden Nachteil: 

5 Sie lasst keinen Raum fiir eine gezielte Anpassung des GIS-TrainingsaJgorithmus auf die- 
jenigen Merkmalsgruppen, bei welchen noch ein grofier Korrekturbedarf besteht. So kann 
es passieren, dass bei einem nachfolgenden Iterationsschritt iterative Randwerte, welche bei 
einem vorherigen Iterationsschritt bereits gut an den zugeordneten gewiinschten Randwert 
angepasst waren, keine grofien ^.-Korrekturen benotigen. Die Korrektur anderer Parameter 
10 ware hter von Vorteil. 




Es werden- deshalb bei der traditionellen zyklischen Variante unnotig viele Iterationsschritte 
durchgefuhrt, um eine gute Abschatzung der gewiinschten Randwerte und der gewiinsch- 
ten freiert Parameter X zu erzielen. 

15 

Ausgehend von diesem Stand der Technik ist es die Aufgabe der Erfindung, ein Sprach- 
erkennungssystem, eine Trainingseinrichtung und ein Verfahren zum Berechnen von 
Iterationswerten fur freie Parameter X des ME-Sprachmodells derart weiterzubilden, dass 
die iterative Berechnung effektiver und schneller wird. 

20 

Diese Aufgabe wird durch das in Patentanspruch 1 beanspruchte Verfahren gelost. 




Demnach wird die Aufgabe dadurch gelost, dass dem aktuellen Iterationsparameter n 
jeweils diejenige Merkmalsgruppe Ai(n) mit 1 < i(n) < m zugeordnet wird, fur welche, 

(n) 

25 gemafi einem vorbestimmten Kriterium, die Anpassung der Iterationswerte m a an die 

jeweils zugehorigen gewiinschten Randwerte ma am schlechtesten im Vergleich zu alien m 
Merkmalsgruppen des Sprachmodells erfiillt ist. 



30 



Aufgrund dieser erfindungsgemaf?en Zuordnung von Merkmalsgruppen Ai(n) zu einzelnen 
Iterationsparametern/ Iterationsschritten n wird ein besseres Konvergenzverhalten des GIS- 
Trainingsalgorithmus zur Approximation der freien Parameter X erzielt. Die iterative 
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Berechnung der freien Parameter X ist jetzt nicht mehr als zyklisch zu bezeichnen, weil die 
Zuordnung von Merkmalsgruppen Ai(n) zu dem Iterationsparameter n nicht mehr 
zyklisch, sondern gemal? einem individuell zu berechnehden Kriterium erfolgt. Im Ver- 
gleich zur zyldischen Version hat diese erfindungsgemafie azyklische Berechnung den Vor- 
teil einer effektiveren und schnelleren Berechnung der gewiinschten Iterationswerte fur die 
freien Parameter A,. 

Gemafi dem in Patentanspruch 2 beschriebenen ersten Ausfiihrungsbeispiel der Erfindung 
erfolgt vor jeder Erhohung des Iterationsparameters n die Berechnung des Kriteriums zur 
Auswahl der am besten fur den Iterationsparameter n geeigneten Merkmalsgruppe Ai 
gemafi folgender Gleichung: 



Z'« log 



ask, 



Km™ J 



asA, 



r 



log 



u-Zv-^v 



Der Index der ausgewahlten Merkmalsgruppe wird anschliefiend folgendermafien fest- 
gelegt: 

M 



/(«) - arg max D 



J 



Vorteilhafterweise hat der GIS-Trainingsalgorithmus zur iterativen Berechnung der freien 
•Parameter X - und damit die mathematische Funktion G( ) in Patentanspruch 1 -folgende 
Gestalt: 



v-Z 



fi^Mw t p m p 



m 



i-Z 



t R m R 

P^Ai(ri) P P J 



(la) 



wobei dieser Algorithmus im wesentlichen aus dem Stand der Techhik bekannt ist und 
oben als Formel (1) beschrieben wurde. Wie in der zyldischen Version werden die freien 
Parameter Xa. gemal? Formel la angepasst. Hierbei werden alle Merkmale a der ausge- 
wahlten Gruppe Ai(n) behandelt. 
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Es ist vorteilhaft, wenn sowohl zur Berechnung des Kriteriums ' wie auch zur Berech- 
nung der freien Parameter X gemai? dem GIS-Trainingsalgorithmus eine spezielle Merk- 

/■ ortho 

verwendet wird. 

r 

5 

Die Verwendung der orthogonalisierten Merkmalsfunktion bewirkt gerierell eine 

Verbesserung der Konvergenzgeschwindigkeit des GIS-Trainingsalgorithmus. Durch 
Verwendung der orthogonalisierten Merkmalsfunktion bei dem erfindungsgemaBen 
Verfahren ergibt sich eine zusatzlich erhohte Konvergenzgeschwindigkeit fur den GIS- 
10 Trainingsalgorithmus. 

Weitere vorteilhafte Ausgestaltungen und Verwendungen des erfindungsgemafSen Ver- 
fahrens sind Gegenstand der Unteranspriiche. * 

15 Die Aufgabe der Erfindung wird weiterhin durch ein Spracherkerinungssystem und durch 
eine Trainingseinrichtung auf Basis des Maximum-Entropie-Sprachmodells gemafi den 
Patentanspriichen 8 und 9 gelost. Die Vorteile dieses Spracherkennungssystems und der 
Trainingseinrichtung entsprechen den Vorteilen, wie sie pben fur das erfindungsgemafSe 
Verfahren diskutiert wurden. 

20 

Es erfolgt eine detaillierte Beschreibung eines Ausfuhrungsbeispiels der Erfindung unter 
Bezugnahme auf die folgenden Figuren, wobei 

Fig. 1 ein Flussdiagramm zur Berechnung des Kriteriums zur Auswahl einer geeigneten 
25 Merkmalsgruppe Ai(n) fur einen Iterationsparameter n gemafi der vorliegenden 

Erfindung; • 

Fig. 2 ein Verfahren zur Berechnung eines verbesserten orthogonalisierten Randwertes 



3P 
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Fig. 3 ein Spracherkennungssystem gemafi der vorliegenden Erfindung; und 

Fig. 4 ein Beispiel fur Merkmalsgruppen in einem Sprachmodell (Stand der Technik) 

beschreibt. 

Fig. 1 veranschaulicht die einzelnen Verfahrerisschritte eines erfindungsgemafien Ver- 
fahrens zur Auswahl derjenigen Merkmalsgruppe Ai(n), welche zur Berechnung von 

Iterationswerten a gemafi dem GIS-Trainingsalgorithmus am besten geeignet ist. 

Das Verfahren gemafi Fig. 1 sieht vor, dass in einem ersten Verfahrensschritt Sl/1 
zunachst Konvergenzschrittweiten ta initialisiert werden miissen. In Schritt Sl/la wird der 
Iterationsparameter n = 0 gesetzt. 

Weiterhin ist die "Wahrscheinlichkeit p(0) mit einem beliebigen Satz von Anfangspara- 

metern a zu initialisieren. Dabei bezeichnet p(0)(\y | h) einen geeigneten Initialisierungs- 
oder Anfangswert fiir die Wahrscheinlichkeit, dass ein Wort w auf eine bisherige Wort- 
folge h (Historie) folgt (Sl/2). 

In Verfahrensschritt Sl/3 sind die aktuellen Iterationsrandwerte a fiir ihre jeweiligen 
zugehorigen gewiinschten Randwerte ma, welche letzten Endes das gewiinschte Sprach- 
modell definieren, zu berechnen, und zwar fiir alle in dem Sprachmodell vorbestimmten 
Merkmale a. 

Die gewiinschten Randwerte ma legen folgende Randbedingungen fiir die gesuchte "Wahr- 
scheinlichkeitsverteilung p(wlh) fest: 



(2) 
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wobei 



^(ty : eine Haufigkeit der Historie h; 

p(w|h) : die Wahrscheinlichkeit, mit welcher das Wort w auf die 

5 Historie h folgt; und 

fa(h, w) : eine Merkmalsfunktion fur das Merkmal ct 

bezeichnet. 

10 Fur das Schatzen geeigneter Randwerte sind im Stand der Technik verschiedene Ansatze 
bekannt. 

Gemafi einem bekannten Ansatz ergibt sich der gewiinschte Randwert ma fiir das Sprach- 
modell durch Anwendung der Merkmalsfunktion fa auf ein Trainingskorpus und 
1 5 anschliefiendes Glatten der daraus resultierenden Haufigkeiten. Dabei kann das Glatten 
z.B. durch Subtraktion eines Korrekturwertes von der ermittelten Haufigkeit N(a) 
erfolgen. 

Gemal? einer zweiten alternativen Methode erfolgt die Berechnung durch Reduktion von 
20 Merkmalsmengen in dem Sprachmodell so lange, bis die Randbedingungen keine Wider- 
spriiche mehr aufweisen. Eine derartige Reduktion von Merkmalsmengen muss in der 
Praxis sehr umfangreich sein, weil ansonsten das erzeugte Sprachmodell keine Losung mehr 
zu der urspriinglichen Trainingsaufgabe darstellt. 

25 Fiir die Merkmalsfunktion fa sihd ebenfalls verschiedene Definitionen im Stand der 
Technik bekannt; sie wird normalerweise jedoch defihiert zu: 

t 1 wenn a die Wortfolge (h,w) korrckt beschreibt 
f a (h,w)=\ 0 sonst (3) 



30 
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Der n'te Iterationsrandwert m a stellt eine iterative Naherung fur die soeben definierten 

' (") 
gewiinschten Randwerte m(X dar. Der n'te Iterationsrandwert m a berechnet sich wie 

folgt: 



Diese Formel unterscheidet sich von der oben genannten Formel (2) lediglich dadurch, 
dass fur die Wahrscheinlichkeit p(w | h) eine Approximation in Form des IteratiohsWertes 
p(n)(w | h) gewahlt wird, wobei der Iterationswert p(n) wie folgt berechnet wird: 



p(n)(w| h) = Z .W ■ V a 



2> P £4™. /a (MO 

Z(n)(h) = » ^ a 



(5) 



(6) 



wobei Z(n)(h) und die freien Parameter a jeweils durch den GIS-Trainingsalgorithmus 
trainiert, d.h. iterativ approximiert werden. 



Genial? Verfahrensschritt Sl/4 ist nach jedem Iterationsschritt zu priifen, ob die berech- 

■ m w 

neten Iterationsrandwerte a bereits mit einer gewiinschten Genauigkeit gegen die 
gewiinschten Randwerte mot konvergiert sind. Sollte dies der Fall seirt, so ist das 
erfindungsgemaKe Verfahren beendet. / 



Solange dies jedoch noch nicht der Fall ist, ist vor jeder Erhohung des Iterationsparameters 
um 1 (wieder) die Merkmalsgruppe Ai(n) mit dem grofiten Korrekturbedarf zu bestim- 
men; dies erfolgt erfindungsgemafi dadurch, dass die nachfolgend beschriebenen Ver- 
fahrensschritte Sl/5 bis Sl/7 erstmals bzw. wiederholt durchgefiihrt werden. 



# 

-9 
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Gemafi Verfahrensschritt Sl/5 wird fur alle Merkmalsgruppen Ai in dem Sprachmodell 



jeweils getrennt das Kriterium ®> berechnet, welches ein Mafi dafiir ist, inwieweit die 



Iterationswerte fiir Merkmale a der Gruppe Ai an die jeweils zugehorigen gewiinsch- 
ten Randwerte ma angepasst sind. Das Kriterium wird mathematisch vorzugsweise wie 
folgt beschirieben: 



D. 



(") 



asA, 



log 



(7) 



Dabei berechnet sich die Konvergenzschrittweite ta wie folgt: 



r 



M t = max 



mit 



<*- w > Wa 



(8) 



In bezug auf Formel (7) ist es wichtig zu erkennen, dass der Betrag von ' 



umso grofier 

ist, je schlechter die Anpassung der iterativeh Randwerte " an ihre zugehorigen 
gewiinschten Randwerte ma fiir eine bestimmte Merkmalsgruppe Ai ist. 



Folglich ergibt sich die Merkmalsgruppe mit der schlechtesten Anpassung d.h. mit dem 
groGten Korrekturbedarf, gemafi Verfahrensschritt Sl/7 zu: 



i(n) 



argmax 



(9) 



In Verfahrensschritt Sl/8 wird die so ausgewahlte Merkmalsgruppe Ai(n) mit dem grofiten 
Korrekturbedarf zur Berechnung der n+1 Iterationswerte fiir die freien Parameter X z.B. 
gemal? der aus derh Stand der Technik bekannten und oben beschriebenen Gleichung (1) 
verwendet. Dabei wird wahrend des n-ten Iterationsschrittes die Gleichung (1) fiir. alle 
Merkmale a aiis der ausgewahlten Merkmalsgruppe Ai(n) berechnet, bevor der Iterations- 
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parameter n um l-erhoht wird. Die Iterationswerte a berechnen sich dann gemafi 
einem ersten Ausfuhrungsbeispiel einer mathematischen Funktion GO zu: 

( r_ V t 



G() = log 



(10) 



Eine deraxtige azyklische Berechnung der Iterationswerte a bietet den VorteiJ, dass 
unnotige Iterationsschritte vermieden werden, und dass auf diese Weise die Konvergenz- 
geschwindigkeit des GIS-Trainingsalgorithmus erheblich verbessert wird. 



Nach der Berechnung des Iterationswertes a erfolgt in Schritt Sl/8 eine Neudefinition 
des Iterationsparameters n zu n = n+1. 



Der gemafi Formel (8) berechnete und gemafi Schritt Sl/8 von <* nach <* umdefi- 



nierte Iterationswert dient dann wieder zur Berechnung des aktuellen Iterationsrandwertes 

.(«> 

a in Schritt Sl/3 gemal? Formel (4) in Verbindung mit den Formeln (5) und (6). 



7W (n) 



Die Konvergenzgeschwindigkeit des GIS-Trainingsalgorithmus hangt allerdings nicht nur 
von der Auswahl einer geeigneten Merkmalsgruppe fiir jeden Iterationsschritt n ab, 
sondern auch von der Merkmalsfunktion, mit welcher die Konvergenzschrittweiten tot und 

t|5 sowie die iterativen Randwerte <* und p berechnet werden. So kann die Konver- 
genzgeschwindigkeit des GIS-Trainingsalgorithmus zusatzlich dadurch gesteigert werden, 
dass anstelle einer normalen Merkmalsfunktion gemafi Formel (3) eine orthogonalisierte 

r ortho v 

Merkmalsfunktion J a yerwendet wird, welche folgendermafien definiert ist: 



r ortho x _ r i , W enn a das Merkmal mit der hochsten Reichweite 

a ' \ in Ai ist, welches die Wortfolge (h,w) korrekt ' fill 

beschreibr 
0 sonst 



- i: - 
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J- ortho 

Bei Einsetzen der orthogonaJisierten Merkmalsfunktion * a anstelle der normalen 
Merkmalsfunktion fa in die Fbrmeln (4), (5), (6) und (8) und bei zusatzlicher Berechnung 

m oriho m ortho 

der gewiinschten Randwerte a und p durch Anwenden der orthogonaJisierten 

j~ ortho . 

Merkmalsfunktion J a auf ein Trainingskorpus des Sprachmodells ergibt sich die 
Formel fur den GIS-Trainingsalgorithmus in Analogie zu Formel (10) zu: 

f ~. orth ° 1 — X"" uortho ^ortho(n) \ 



' j^orthoiji+Y) ^ortho^n) ^ ^ ortho |Qg 



m onhoin) 1 _y ortho ortho 

a t-ipeAi'nyP fi J 



(12) 



wobei auch die Berechnung dieser Formel vorzugsweise nicht zyklisch, sondern azyklisch 
gemafi dem in Fig. 1 beschriebenen Verfahren erfolgt. Die rechte Seite der Gleichung (12) 
beschreibt ein zweites Ausfuhrungsbeispiel fur die mathematische Funktion G in Patent- 
anspruch 1. 



Die Berechnung der gewiinschten Randwerte <* ' , welche durch die Iterationswerte 



m orthoXri) 



approximiert werden sollen, erfolgt vorzugsweise gemafi: 



m ortho X 1 ~-ortho 

m a - Tn a-Zu m fi 
(*) 



(13) 



wobei (*) alle hoher-reichweitigen Merkmale B umfasst, welche das Merkmal a ein- 
schlieSen und welche in derselben Merkmalsgruppe liegen wie a. Zur Berechnung des 



ortho 

m, 



Randwertes p ist die genannte Formel quasi rekursiv fur jedes Merkmal B immer 
wieder anzuwenden, bis fiir bestimmte Merkmale, namlich fur jene mit der hochsten 
Reichweite, der Summenterm verschwindet, weil zu diesen Merkmalen keine hoherreich- 
weitigen Merkmale existieren. Die gewiinschten orthogonalisierten Randwerte fiir die 
hochstreichweitigen Merkmale Bk entsprechend dann jeweils den normalen gewiinschten 
Randwerten m3k. 
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Ein Verfahren zur Berechnung der gewiinschten orthogonalisierten Randwerte 171 a 
gemafi Formel (13) ist in Fig. 2a und 2b beschrieben. 

GemaS den Fig. 2a und 2b werden in einem ersten Verfahrensschritt S2/1 in dem Sprach- 
modell alle Merkmale Pi mit i = 1 ... g bestimmt, welche eine sog. hohere Reichweite auf- 
weisen als ein Merkmal a = 00, d.h. welche dieses an einer vorbestimmten Stelle ein- 
schliefien und welche aus derselben Merkmalsgruppe stammen wie a. AnschlieSend wird 
in einem Verfahrensschritt S2/2 fur alle Merkmale pi mit i = 0 ... g, also auch fur das 
Merkmal a = P0, ein gewiinschter Randwert mpi berechnet. 

Fiir die Berechnung des gewiinschten Randwertes mpi sind verschiedene Methoden im 
Stand der Technik bekannt, wie oben nachfolgend zu Formel (2) beschrieben wurde. 

In Verfahrensschritt S2/3 werden nachfolgend alle Merkmale Pi nach ihrer-Reichweite 
sortiert, wobei vorzugsweise dem Merkmal Pi mit der grofiten Reichweite der Index i = g 
zugeordnet wird. Dabei kann es durchaus vorkommen, dass einzelnen Reich weiteklassen, 
also. z.B. der Klasse Bigramme oder der Klasse Trigramme, mehrere Merkmale Pi zuge- 
ordnet werden. In diesen Fallen sind mehrere Merkmale Pi mit unterschiedlichen, aber. 
aufeinanderfolgenden Indizes i ein und derselben Reichweiteklasse zugeordnet, d.h. diese 
Merkmale haben dann jeweils dieselbe Reichweite. ' 

Fiir den Ablauf des Verfahrens, bei welchem in den nachfolgenden Schritten die einzelnen 
Merkmale Pi der Reihe nach ausgewertet werden, ist es wichtig, dass in einem ersten 
Durchlauf n=0 des Verfahrens mit einem Merkmal Pi begonnen wird, welches der 
hochsten Reich weitenklasse zugeordnet ist; vorzugsweise wird deshalb mit dem Merkmal 
Pg begonnen (siehe Verfahrensschritte S2/4 und S2/5 in Fig. 2a). 

In einem nachfolgenden Verfahrensschritt S2/6 wird gepriift, ob es zu dem aktuell ausge- 
wahlten Merkmal Pi (beim ersten Durchlauf n = 0 ist i = g), vorbestimmte hoherreich- 
weitigere Merkmale Pk mit i < k < g gibt, welche das Merkmal pi einschlieGen. Beim 
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ersten Durchlauf gehort das Merkmal 0i, wie oben gesagt, automatisch der Klasse mit der 
hochsten Reichweite an und deshalb ist die Abfrage in Verfahrensschritt S2/6 fiir dieses 
Merkmal pi zu verneinen. In diesem Fall springt das Verfahren zu Verfahrensschritt S2/8, 
wo ein Parameter X zu Null gesetzt wird. Es erfolgt daraufhin eine Berechnung eines vef- 



nrtho 



besserten gewiinschten orthogonalisierten Randwertes & fur das Merkmal Pi gemaJ? 
Verfahrensschritt S2/9 in Fig. 2b. Wie dort ersichtlich, wird dieser Randwert fur das 
Merkmal Pi dem in Schritt S2/2 berechneten gewiinschten Randwert mPi gleichgesetzt, 
wenn der Parameter X=0 ist. 

Die Verfahrensschritte S2/5 bis S2/1 1 werden daraufhin sukzessive fur alle Merkmale Pi-1 
mit i-l=g-l,g-2,...,0 wiederholt. In Verfahrensschritt S2/10 findet eine dafur notwendige 
Neuinitialisierung des Indexes i statt and in Verfahrensschritt S2/1 1 erfolgt eine Abfrage, 
ob alle Merkmale pi mit i = 0 ... g abgearbeitet worden sind. 

Fiir alle Merkmale pi, fur welche vorbestimmte hoher-reichweitige Merkmale pk mit 
i < k < g existieren, ist die Abfrage in Verfahrensschritt S2/6 mit "Ja" zu beantworten. Der 
Parameter X wird dann nicht zu Null gesetzt, sondern berechnet sich gemafi Verfahrens- 
schritt S2/7 durch Aufsummierung der entsprechenden, in vorherigen Durchlaufen jeweils 
in Verfahrensschritt S2/9 berechneten verbesserten gewiinschten orthogonalisierten 

~ m °rtho 

Randwerte & fur die jeweils hoher-reichweitigen Merkmale Pk. 

Sobald in Verfahrensschritt S2/1 1 festgestellt worden ist, dass der gewunschte orthogonali- 

- . m ortho 

sierte Randwert po in Verfahrensschritt S2/9 berechnet worden ist, wird dieser in 
Verfahrensschritt 52/ 12 als a • ausgegeben. 

In Fig. 3 ist schliefilich ein Spracherkennungssystem 10 gemafi der vorliegenden Erfindung 
daxgestellt, welches auf Basis des sog. Maximum-Entropie-Sprachmodells arbeitet. Es um- 
fasst eine Erkennungseinrichtung 12, welche den Bedeutungsinhalt von bereitgestellten 
Sprachsignalen zu erkennen versucht. Die Sprachsignale werden dem Spracherkennungs- 
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system ublicherweise aJs Ausgangssignale eines Mikrpphons 20 bereitgestellt. Die Erken- 
nungseinrichtung 12 erkennt den Bedeutungsinhalt der Sprachsignale dadurch, dass sie 
Muster in dem empfangenen akustischen Signal auf vordefinierte Erkennungssymbole, wie 
z.B. bestimmte Wort, Handlungen oder Ereignisse, mit Hilfe des implementierten Maxi- 
5 mum Entropie Sprach Modells MESM abbildet. Schlietflich gibt die Erkennungsein- 
richtung 12 ein Ausgangssignal aus, welches den in dem Sprachsignal erkannten Bedeu- 
tungsinhalt reprasentiert und zur Ansteuerung von verschiedensten Geraten, z.B. eines 
v Textverarbeitungsprogramms oder eines Telefons nach Mafigabe durch diesen Bedeutungs- 
inhalt dienen kann. 

10 , 

Fur eine moglichst fehlerfreie Ansteuerung der Gerate im Sinrie des Bedeutungsinhaltes 
von steuernder Sprachinformation ist es erforderlich, dass das Spracherkennungssystem 10 
die Bedeutungsinhalte der auszuwertende Sprache mit einer moglichst hohen Quote richtig 
erkennt. Dazu ist eine moglichst gute Anpassung Sprachmodells an die sprachlichen Beson- 

15 derheiten des Sprechers, d.h. des Benutzers des SpracherjMnnungssystems erforderlich. 
Diese Anpassungsaufgabe leistet eine Trainingseinrichtung 14, welche entweder extern 
oder in das Spracherkennungssystem 10 integriert betrieben werden kann. Genauer gesagt 
dient die Trainingseinrichtung 14 zum Anpassen des MESM in dem Spracherkennungs- 
system 10 an wiederkehrehde statistische Muster in der Sprache eines bestimmten 
20 Benutzers. 

Sowohl die Erkennungseinrichtung 12 wie auch die Trainingseinrichtung 14 sind 
ublicherweise, aber nicht notwendigerweise, als Softwaremodule ausgebildet und laufen auf 
einem geeigneten Computer (nicht gezeigt) ab. 



25 
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PATENTANSPRUCHE 



1. Verfahren zum Berechnen von Iterationswerten fiiir freie Parameter tax in dem 
Maximum Entropie Sprachmodeil gemafi dem folgenden allgemeinen 
Trainingsalgorithmus: 



An+Y) 



aeAi(n) -^^a > m a' m a > ) 



aeAi'(w) 



wobei: 

n : einen Iterationsparameter, welcher einen 

aktuellen Iterationsschritt reprasentiert; 
10 Ai , : die i'te Merkmalsgruppe in dem Sprachmodeil mit 
1 < i < m; 

Ai(n) : die in dem n'ten Iterationsschritt ausgewahlte Merkmalsgruppe; 
a : ein Merkmal in dem Sprachmodeil; 
G : eine mathematische Funktion; 

15 " : den n'ten Iterationswert fur den freien Parameter 

einen gewiinschter Randwert fiir das Merkmal a; und 
den n'ten Iterationsrandwert fiir deri gewiinschten Randwert ma; 



20 



bezeichnet, 
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wobei jedem Iterationsparameter n eine Merkmalsgruppe Ai(n) von insgesamt m t 

Merkmalsgruppen des Sprachmodells zugeordnet ist, und wobei die Iterationswerte a 
jeweils fur alle Merkmale a aus der aktuell zugeordneten Merkmalsgruppe Ai(n) berechnet 
werden; 

dadurch gekennzeichnet, 

dass dem aktuellen Iterationsparameter n jeweils diejenige Merkmalsgruppe Ai(n) mit 
1 < i(n) < m zugeordnet wird, fiir welche, gemafi einem vorbestimmten Kriterium, die 

Anpassuhg der Iterationsrandwerte a an die jeweils zugehorigen gewiinschten 
Randwerte ma am schlechtesten im Vergleich zu alien m Merkmalsgruppen des 
Sprachmodells erfiillt ist. 

2. Verfahren nach Anspruch 1, 
dadurch gekennzeichnet, 

dass es vor jeder Erhohung des Iterationsparameters n folgende Schritte zur Berechnung 
und Auswertung des Kriteriums umfasst: 

a) Berechnen von aktuellen Iterationsrandwerten a fur die Merkmale a aller 
Merkmalsgruppen Ai mit i < i < m des Sprachmodells gemafi der folgenden Formel: 

: die Haufigkeit beschreibt, mit 

welcher die Wortfolge h (Historie) in einem Trainingskorpus des 
Sprachmodells vorkommt; 
: eih Iterationswert fiir die ' 

Wahrscheinlichkeit ist, mit welcher das Wort w auf die Historie h 
folgt; und 

: eine Merkmalsfunktion fiir das Merkmal a reprasentiert; 



wobei 
p(n) (w|h) 
fa (h,w) 
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b) Auswahlen derjenigen Merkmalsgruppe Ai(n), fur welche die Iterationsrandwerte W " 
am>schlechtesten an die zugehorigen Randwerte ma angepasst sind durch Ausfiihren der 
folgenden Schritte: 



5 bi) fiir jede Merkmalsgruppe Ai: Berechnen des Kriteriums 



• gemaS folgender Formel: 



D. 



(»). 



or Oil 



Z> (n) 



bii) Auswahlen der MerkmaJsgruppe Ai(n) mit dem groGten Wert fur das Kriterium ' 
10 gemafi: 

i(n) = arg max £>j" ) 



(7); 



biii) Aktualisieren des Parameters " fur alle Merkmale a aus der ausgegewahlten 
Merkmalsgruppe Ai(n); und 



V 



15 c) Wiederholen der Sehritte a) und b) in jedem weiteren Iterationsschritt, solange bis alle 



Randwerte m ° eine gewiinschte Konvergenzgenauigkeit erreicht haben. 

3- Verfahren nach Anspruch 2, 
dadurch gekenhzeichnet, 
20 dass vor der erstmaligen Durchfiihrung der Schritte a) - c) gemafi Anspruch 2 folgende 
Initialisierungsschritte durchgefiihrt werden: 



(»+0 



a') Bestimmen von Wenen fiir die Konvergenzschrittweiten ta; und 
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a") Initialisieren von p(0)(w | h) mit einem beliebigen Satz von Parametern " . 

4. Verfahren nach Anspruch 3, 
dadurch gekennzeichnet, 

dass in Schritt a') die Werte der Konvergenzschrittweiten tot fur jede Merkmalsgruppe Ai 
wie folgt berech net werden: 



M mit . (*.-) W j 



5- Verfahren nach einem der vorangegangenen Anspriiche, 
dadurch gekennzeichnet. 

dass die Funktion G einen Generalized Iterativ Scaling GIS-Trainingsalgorithmus 
reprasentiert und folgendermafien definiert ist: - — 



4" +,) =G=^- ) +/ ff -log 



wobei a ein bestimmtes und P alle Merkmale aus der ausgewahlten Merkmalsgruppe Ai(n) 
bezeichnet. 

6. Verfahren nach einem der Anspriiche 2 bis 5, 
dadurch gekennzeichnet, 

/' ortko 
. _ — . — — . * ist, welche 

wie folgt definiert ist: 

1 wenn a das Merkmal mit der hochsten Reichweite 

rortho (U w \ = ( in Ai ist, welches die Wortfolge (h,w) korrekt 

Ja V ' } I beschreibt 

0 sonst . ■ 
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7. Verfahren nach Anspruch 6, 
dadurch gekennzeichnet, 

m ortho 

dass der gewiinschte orthogonalisierte Randwert a berechnet wird gemafi: 



^.ortho _ „, ~,ortho 



wobei (*) alle hoher-reichweitigen Merkmale B umfasst, welche das Merkmal a 
einschliefien und welche aus derselben Merkmalsgruppe stammen wie a. 

10 8. Spracherkennungssystem (10) mit: 

einer Erkennungseinrichtung (12) zum Erkennen des Bedeutungsinhaltes eines von einem 
Mikrophon (20) aufgenommenen und bereitgestellten akustischen Signals, insbesondere 
eines Sprachsignals, durch Abbilden von Teilen dieses Signals auf vordefinierte Erken- 
nungssymbqle, wie sie von dem implementierten Maximum Entropie Sprach Modell 

15 MESM angeboten werden, und zum Erzeugen von Ausgangssignalen, welche den 
erkannten Bedeutungsinhalt reprasentieren; und 

einer Trainingseinrichtung (14) zum Anpassen des MESM an wiederkehrende statistische 
. Muster in.der Sprache eines bestimmten Benutzers des Spracherkennungssystems (10); 
dadurch gekennzeichnet. 

20 dass die Trainingseinrichtung (14) freie Parameter X in dem MESM gemafi dem Verfahren 
nach Anspruch 1 berechnet. < 

9. Trainingseinrichtung (14) zum Anpassen des Maximum Entropie Sprach Modells 
MESM in einem Spracherkennungssystem (10) an wiederkehrende statistische Muster in 
25 der Sprache eines bestimmten Benutzers des Spracherkennungssystems (10), 
dadurch gekennzeichnet, 

dass die Trainingseinrichtung (14) freie Parameter X in dem MESM gemafi dem Verfahren 
, nach Anspruch 1 berechnet. 
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Initialisieren von p (0) mit einem 
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Berechnen der Parameter X'^ 11 
auf Basis der ausgewahlfen 
Merkmalsgruppe Aj( n) 
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Besfimmen aller Merkmale Pimit i=1...g , 
v/elche eine hohere Reichweife aufweisen 
in Bezug auf ein Merkmal a = p 0 
• und dieses an einer vorbesfimmfen Sfelle einschlieOen. 



S2/1 



i 



Berechne mp. mif i=0...g 



i 



$2/2 



Sortieren der Merkmale pj nach ihrer RW , 
wobei i=g die hbchsfe RW reprasenfierf 



I 



i=g 



I 
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Auswahl des Merkmats pj 
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Gibt es 
zu dem Merkmal p, 
vorbesfimmfe hbherreichweitigere Merkmale pj, 
mif i<k<g . welcne das Merkmal pj 
einschlieflen ? 
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